半年後にAIはいったいどうなっているのか 2025年上半期

👉️ | 半年後にAIはいったいどうなっているのか 2025年下半期

ひとまず画像系でも、案外DeepSeek-R1によって流行りだしているreasoning蒸留が組み込まれることで案外指や腕が増える問題解決するのでは？説を唱えてみるmorisoba65536.icon

全く根拠がない話ではなくSDXLでもtext encoderを差し替えると文字をかけたと言う話が以前あったような…(凄いうろ覚え)

vlmとの統合なども考えられる…がネックはやはりVRAM

サービスベースのモデルはどうしても色々な社会的制約がかかるので性能が上がった…とか言われてもその性能を自由に使わせてはくれないので…となる

Janus Pro：難しいかなと言っていたvlm+画像生成、なんか半年すら立たずずに出たんだが？(生成AI RTA Vision2Image Any%)morisoba65536.icon

ただ、期待した「自分で画像見れるモデルなら手足顔の破綻を自分で画像修正できるやろ」は出来るわけじゃなかった🫠morisoba65536.icon

vlm+reasoningはそれなりに早く来そう、多分どっかが上半期には出しそうmorisoba65536.icon

最悪モデル差分でLora作ってそれでreasoning能力移植できるならQwen2.5-Math(R1 qwen7bの素体とされている)とR1(Qwen 7b)で差分とってポン付けすれば…と思ったがVL版は2ベースで2.5ではなかったか…(微妙に互換性が無い)Qwen2.5-Math

https://zenn.dev/kendama/articles/280a4089cb8a72Llama 3.1 8Bベースの方ならVisionモデル(Llama 3.2)waitに互換性ありそうなのでllm部分を差し替えるなり差分Loraなりで学習しなくてもreasoning能力ポン付けできそうな気配…(半年の話ですらない)morisoba65536.icon

ChatVectorはフォーマット系を失う可能性が高い模様、単純に混ぜるのは難しそう…

計算資源的にローカル動作は難しそうだけど、reasoningとしてイメージ映像作って脳内シュミレート的なモデルもそろそろ理屈上は出せるんじゃないかな…vlm+動画生成とかなるんで今の一般向けハードウェアではどう考えても動きそうにないが…morisoba65536.icon

R1関連、Claude 3.5 Sonnetとの組み合わせで性能が激増する報告が多数なので次世代Claude(4になる？)の性能に期待が出来る…とにかく地力がむちゃくちゃ高いのがR1でプロンプト工夫することでその性能をとことん引き出せてる感じ

reasoning能力の蒸留は既にめっちゃ流行ってるけど、o3-miniが既にコーディングタスクではR1を上回ったりしてるので、ちゃんと蒸留できれば20B以下(つまりローカルで現実的に動くレベルで)でこのレベルの再現ができるのではないか…？と期待したいmorisoba65536.icon

https://huggingface.co/mmnga/DeepSeek-V3-slice-jp64こちらのモデルを見る限りでは(DeepSeek-R1と基本構造は同じ)DeepSeek V3が16Bのモデルの集合体と推測されるので単モデルなら16Bあたりが十分な推論能力を得るのに必要なサイズ何じゃないかなーと予想。morisoba65536.icon

そう考えるとおそらくV3系列は共通weightが概ね4Bほどで3つの専門家モデルを呼び出している構造なんかな？(憶測してないでコード見ろ、って言われたらはい…としか言えないが)morisoba65536.icon

https://arxiv.org/html/2401.06066v1/#S2普通に論文に書いてた、汎用専門家x1+特化型の専門家x3の4モデルがアクティブだったか…よく読んだらDeepSeekMoEとかいう前の世代のアーキテクチャだった(無関係ではないだろうがV3そのものではない)morisoba65536.icon

https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdfV3の論文見たけどますますわからねぇってくらいに複雑なアーキテクチャをしている…morisoba65536.icon

MN-Core L1000とかNVIDIA Project DIGITSとかでPCでもLLMが動くようになってほしいwogikaze.icon

セキュリティ面から

データセンターへの投資が増える

運営のカントリーリスク等はあるがモデル自体が公開されてることもあり、DeepSeek-R1辺りが動かせる環境は、データセンターの一つの基準になりそう(自鯖で動かす分にはそのへんの不安要素のかなりの部分が減らせるので)morisoba65536.icon

上半期にはまず間に合わないだろうけど下半期〜来年にかけてはR1+αを推論するのに向いてる推論特化構成みたいなのはサービス的には(ハードウェアがでてくるなら)広まりそうな需要は出てきた(それくらいに体感レベルでR1は実用レベルの性能してる)

そういう状況になると企業向けの推論サービスを想定したモデルは400b〜700bクラスのものが普通に増えそうではある(大半はファインチューンモデルだろうが、基板モデルにしても「そのライン」を基準にして作りやすくもなる)(ご家庭で動かすのは辛い…😢)morisoba65536.icon

動画生成AIへのパラハラの訪れnomadoor.icon

データセットをDiTに食わせる勝負が、今、始まる…

世界モデルとしてのインタラクティブな動画生成AIの開発

動画生成AIの下流タスクとしての画像生成

AI登場以前の既存の制作手法に無い新しいワークフローや、動画を使った簡単なLoRA手法ができる気がする

完全なアニメができれば、そこから漫画も作れるわけで、すごくすごい無駄だけどAnimateDiff × prompt travelで一貫性のある表情差分を作るの行き着く先として、そういう作り方が出てきたら面白い

気になる👀morisoba65536.icon

振り返り

nomadoor.icon

動画生成AIを画像生成に使うのは結構あったけど、1f推論みたいな方向だとは思わなかったなぁ

FramePack初期のキャラ回転させたりするあたりが一番イメージに近かった

gpt-image-1からAI画像編集タスクに注目が移った